深度学习失败案例很丰富,尤其是在医疗区域。最近对分布式概括的研究已在控制良好的合成数据集上进行了大量发展,但它们不代表医学成像环境。我们提出了一条依赖伪像的管道的管道,以便为具有挑战性的皮肤病变分析环境提供概括评估和偏见。首先,我们将数据分为越来越高的偏见训练和测试集的水平,以更好地概括评估。然后,我们基于皮肤病变伪影创建环境,以实现域的概括方法。最后,经过强大的训练,我们执行了测试时间的偏差程序,从而减少了推理图像中的虚假特征。我们的实验表明,我们的管道改善了偏见的情况下的性能指标,并在使用解释方法时避免了伪像。尽管如此,在评估分布数据中的此类模型时,他们不喜欢临床上的功能。取而代之的是,只有在培训中呈现类似工件的测试集中的性能得到了改善,这表明模型学会忽略了已知的伪像。我们的结果引起了人们的关注,即对单个方面的偏见模型可能不足以容纳皮肤病变分析。
translated by 谷歌翻译
The future of population-based breast cancer screening is likely personalized strategies based on clinically relevant risk models. Mammography-based risk models should remain robust to domain shifts caused by different populations and mammographic devices. Modern risk models do not ensure adaptation across vendor-domains and are often conflated to unintentionally rely on both precursors of cancer and systemic/global mammographic information associated with short- and long-term risk, respectively, which might limit performance. We developed a robust, cross-vendor model for long-term risk assessment. An augmentation-based domain adaption technique, based on flavorization of mammographic views, ensured generalization to an unseen vendor-domain. We trained on samples without diagnosed/potential malignant findings to learn systemic/global breast tissue features, called mammographic texture, indicative of future breast cancer. However, training so may cause erratic convergence. By excluding noise-inducing samples and designing a case-control dataset, a robust ensemble texture model was trained. This model was validated in two independent datasets. In 66,607 Danish women with flavorized Siemens views, the AUC was 0.71 and 0.65 for prediction of interval cancers within two years (ICs) and from two years after screening (LTCs), respectively. In a combination with established risk factors, the model's AUC increased to 0.68 for LTCs. In 25,706 Dutch women with Hologic-processed views, the AUCs were not different from the AUCs in Danish women with flavorized views. The results suggested that the model robustly estimated long-term risk while adapting to an unseen processed vendor-domain. The model identified 8.1% of Danish women accounting for 20.9% of ICs and 14.2% of LTCs.
translated by 谷歌翻译
基于梯度提升决策树(GBDT)的机器学习(ML)算法在从医疗保健到金融的各种任务关键应用程序中的许多表格数据任务上仍然受到青睐。但是,GBDT算法并不能免于偏见和歧视性决策的风险。尽管GBDT的受欢迎程度和公平ML研究的迅速发展,但现有的经过处理的公平ML方法要么不适用GBDT,因此在大量的火车时间内开销,或者由于高级失衡的问题而不足。我们提出FairgBM,这是一个在公平限制下培训GBDT的学习框架,与无约束的LightGBM相比,对预测性能几乎没有影响。由于常见的公平指标是不可差异的,因此我们使用平滑的凸错误率代理采用``代理 - 拉格朗日''公式来实现基于梯度的优化。此外,与相关工作相比,我们的开源实施在训练时间中显示了一个数量级的加速顺序,这是一个关键方面,旨在促进现实世界实践者对FairgBM的广泛采用。
translated by 谷歌翻译
这项研究通过对三种不同类型的模型进行基准评估来调查机器学习模型对产生反事实解释的影响:决策树(完全透明,可解释的,白色盒子模型),随机森林(一种半解释,灰色盒模型)和神经网络(完全不透明的黑盒模型)。我们在五个不同数据集(Compas,成人,德国,德语,糖尿病和乳腺癌)中使用四种算法(DICE,WatchERCF,原型和GrowingSpheresCF)测试了反事实生成过程。我们的发现表明:(1)不同的机器学习模型对反事实解释的产生没有影响; (2)基于接近性损失函数的唯一算法是不可行的,不会提供有意义的解释; (3)在不保证反事实生成过程中的合理性的情况下,人们无法获得有意义的评估结果。如果对当前的最新指标进行评估,则不考虑其内部机制中不合理的算法将导致偏见和不可靠的结论; (4)强烈建议对定性分析(以及定量分析),以确保对反事实解释和偏见的潜在识别进行强有力的分析。
translated by 谷歌翻译
乳腺癌是女性最常见的恶性肿瘤,每年负责超过50万人死亡。因此,早期和准确的诊断至关重要。人类专业知识是诊断和正确分类乳腺癌并定义适当的治疗,这取决于评价不同生物标志物如跨膜蛋白受体HER2的表达。该评估需要几个步骤,包括免疫组织化学或原位杂交等特殊技术,以评估HER2状态。通过降低诊断中的步骤和人类偏差的次数的目标,赫洛挑战是组织的,作为第16届欧洲数字病理大会的并行事件,旨在自动化仅基于苏木精和曙红染色的HER2地位的评估侵袭性乳腺癌的组织样本。评估HER2状态的方法是在全球21个团队中提出的,并通过一些提议的方法实现了潜在的观点,以推进最先进的。
translated by 谷歌翻译
在处理自动化数据驱动的决策中的敏感数据时,一个重要的问题是学习具有高性能的预测因素对类标签进行高性能,同时最小化对从偏置数据引起的性别或种族的任何敏感属性的歧视。存在一些混合树优化标准,即结合分类性能和公平性。虽然无阈值ROC-AUC是测量传统分类模型性能的标准,但目前的公平树分类方法主要针对分类任务以及公平度量的固定阈值优化。在本文中,我们提出了一种复合分裂标准,其将无阈值(即,强)人口统计平价与Roc-Auc称为公允剧的Scaff - 分裂标准AUC - 并且容易延伸到袋装和提升的树框架。我们的方法同时利用多个敏感属性,其中值可以是多语言的或交叉的,并且可以针对不可避免的性能公平折衷来调谐。在我们的实验中,我们展示了Scaff如何在二进制,多语言和多敏感属性方面产生具有性能和公平的模型。
translated by 谷歌翻译